智能论文笔记

自我监督学习（SSL）通过利用不需要标签的借口任务来学习有用的归纳偏见。 SSL的未标记性质使得对整个幻灯片组织病理学图像（WSIS）尤为重要，在该图片级的人类注释很难。蒙面自动编码器（MAE）是一种适合数字病理学的SSL方法，因为它不需要阴性采样，并且几乎不需要数据增加。但是，自然图像和数字病理图像之间的域移动需要进一步研究贴片级WSIS的MAE。在本文中，我们研究了组织病理学中MAE的几种设计选择。此外，我们引入了一个多模式MAE（MMAE），该MAE（MMAE）利用了苏木精和曙红（H＆E）染色的WSI的特定组成性。我们在公共补丁级数据集NCT-CRC-HE-100K上进行了实验。结果表明，MMAE架构的表现优于监督基线和其他最先进的SSL技术，用于八类组织表型任务，仅利用100个标记的样品进行微调。我们的代码可从https://github.com/wisdomikezogwo/mmae_pathology获得

translated by 谷歌翻译

AudioScopeV2: Audio-Visual Attention Architectures for Calibrated Open-Domain On-Screen Sound Separation

Efthymios Tzinis , Scott Wisdom , Tal Remez , John R. Hershey

分类：计算机视觉

2022-07-20

我们介绍了Audioscopev2，这是一种最先进的通用音频视频在屏幕上的声音分离系统，该系统能够通过观看野外视频来学习将声音与屏幕上的对象相关联。我们确定了先前关于视听屏幕上的声音分离的几个局限性，包括对时空注意力的粗略分辨率，音频分离模型的收敛性不佳，培训和评估数据的差异有限，以及未能说明贸易。在保存屏幕声音和抑制屏幕外声音之间的关闭。我们为所有这些问题提供解决方案。我们提出的跨模式和自我发场网络体系结构随着时间的推移以精细的分辨率捕获了视听依赖性，我们还提出了有效的可分离变体，这些变体能够扩展到更长的视频而不牺牲太多性能。我们还发现，仅在音频上进行预训练模型可大大改善结果。为了进行培训和评估，我们从大型野外视频数据库（YFCC100M）中收集了新的屏幕上的人类注释。这个新数据集更加多样化和具有挑战性。最后，我们提出了一个校准过程，该过程允许对屏幕重建与屏幕外抑制进行精确调整，从而大大简化了具有不同操作点的模型之间的性能。总体而言，我们的实验结果表明，在屏幕上的分离性能在更一般条件下的屏幕分离性能的改善要比以前具有最小的额外计算复杂性的方法更为普遍。

translated by 谷歌翻译

我们考虑了一个新的问题，其中多个刚性凸的多边形物体位于从顶部摄像机可见的平面表面上随机放置的位置和方向。目的是使用多对象的按钮有效地将所有对象掌握到垃圾箱中，其中将多个对象推在一起以促进多对象抓握。我们为无摩擦的多对象推格程序提供了必要的条件，并将其应用于新颖的多对象抓紧计划器中的不可接受的grasps。我们发现我们的计划者比Mujoco模拟器基线快19倍。我们还提出了一种使用单对象和多对象抓取对象的选择算法。在将性能与单对象拾取基线进行比较的物理抓握实验中，我们发现无摩擦的多对象握把系统获得了13.6 \％的掌握成功，并且更快的速度为59.9 \％，从212 pph到340 pph。有关视频和代码，请参见\ url {https://sites.google.com/view/multi-object-grasping}。

translated by 谷歌翻译

许多教育技术使用人工智能（AI）向学习者提供生成或产生的语言。我们争辩说，所有语言，包括所有AI通信，编码有关为制备语言制作的人类或人类的身份的信息。然而，通过AI通信，用户可以索引与源不匹配的标识信息。如果与一个文化群体相关的语言被呈现为“标准”或“中性”，如果语言优势一个群体，或者语言强化负刻板印象，这会导致代表性危害。在这项工作中，我们讨论使用涉及从有针对性的人口组收集众包数据的视觉问题生成（VQG）任务的案例研究。生成的问题将呈现给人类评估人员，了解他们如何指定语言背后的身份，以及如何感知任何代表性危害，以及如何理想地解决AI通信造成的任何此类危害。我们反映了这项工作的教育应用，以及对平等，多样性和包容性的影响（EDI）。

translated by 谷歌翻译